数据来源 [Cortez et al., 2009].
P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties.
In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.
## [1] 1599 12
## 'data.frame': 1599 obs. of 12 variables:
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : Factor w/ 6 levels "3","4","5","6",..: 3 3 3 4 3 3 3 5 5 3 ...
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. : 4.60 Min. :0.1200 Min. :0.000 Min. : 0.900
## 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090 1st Qu.: 1.900
## Median : 7.90 Median :0.5200 Median :0.260 Median : 2.200
## Mean : 8.32 Mean :0.5278 Mean :0.271 Mean : 2.539
## 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420 3rd Qu.: 2.600
## Max. :15.90 Max. :1.5800 Max. :1.000 Max. :15.500
## chlorides free.sulfur.dioxide total.sulfur.dioxide
## Min. :0.01200 Min. : 1.00 Min. : 6.00
## 1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00
## Median :0.07900 Median :14.00 Median : 38.00
## Mean :0.08747 Mean :15.87 Mean : 46.47
## 3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00
## Max. :0.61100 Max. :72.00 Max. :289.00
## density pH sulphates alcohol quality
## Min. :0.9901 Min. :2.740 Min. :0.3300 Min. : 8.40 3: 10
## 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50 4: 53
## Median :0.9968 Median :3.310 Median :0.6200 Median :10.20 5:681
## Mean :0.9967 Mean :3.311 Mean :0.6581 Mean :10.42 6:638
## 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10 7:199
## Max. :1.0037 Max. :4.010 Max. :2.0000 Max. :14.90 8: 18
是否有空值
## [1] FALSE
数据集有12个变量,1599条记录
红酒质量 符合正态分布, 质量特别好的红酒和质量特比差的红酒数量相对较少。最多的是质量中等的红酒。
## Min 2.5% 25% 50% 75% 97.5% Max
## 8.4 9.1 9.5 10.2 11.1 12.8 14.9
95%的红酒中的酒精浓度分布在9.1~12.8之间,分布比较集中,过高过低酒精含量的红酒都比较罕见。
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "1.528e-10"
p-value<0.05, 酒精浓度 不符合正态分布
## Min 2.5% 25% 50% 75% 97.5% Max
## 0.33 0.44 0.55 0.62 0.73 1.08 2.00
95%的红酒中的硫酸盐添加剂分布在0.44~1.08之间。
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "5.96e-12"
p-value<0.05, 硫酸盐添加剂 不符合正态分布
## Min 2.5% 25% 50% 75% 97.5% Max
## 2.7400 3.0195 3.2100 3.3100 3.4000 3.6105 4.0100
95%的红酒中的pH分布在3.02~3.61之间, 大部分红酒是弱酸性的。
## isNormal method
## "TRUE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "0.05398"
p-value>0.05, pH 符合正态分布
## Min 2.5% 25% 50% 75% 97.5% Max
## 0.990070 0.992939 0.995600 0.996750 0.997835 1.000400 1.003690
密度与水十分接近,存在微小的差距。
## isNormal method
## "TRUE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "0.07139"
p-value>0.05, 密度 符合正态分布
## Min 2.5% 25% 50% 75% 97.5% Max
## 6 10 22 38 62 131 289
95%的红酒中二氧化硫含量集中在10~131之间。
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "7.707e-12"
p-value<0.05, 二氧化硫含量 不符合正态分布
## Min 2.5% 25% 50% 75% 97.5% Max
## 1.000 3.000 7.000 14.000 21.000 40.525 72.000
95%的红酒中带硫元素的离子含量在3.00~40.53之间。
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "3.134e-10"
p-value<0.05, 硫元素的离子含量 不符合正态分布
## Min 2.5% 25% 50% 75% 97.5% Max
## 4.6 5.6 7.1 7.9 9.2 12.5 15.9
95%的红酒中非挥发性酸含量在5.6~12.5之间。
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "2.016e-09"
p-value<0.05, 非挥发性酸 不符合正态分布
## Min 2.5% 25% 50% 75% 97.5% Max
## 0.120 0.240 0.390 0.520 0.640 0.915 1.580
95%的红酒挥发酸的含量主要集中在0.24~0.92
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "0.02984"
p-value<0.05, 挥发性酸 不符合正态分布
## Min 2.5% 25% 50% 75% 97.5% Max
## 0.00 0.00 0.09 0.26 0.42 0.66 1.00
95%的红酒柠檬酸的含量集中在0.00~0.66
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "1.867e-06"
p-value<0.05, 柠檬酸 不符合正态分布
## Min 2.5% 25% 50% 75% 97.5% Max
## 0.9 1.4 1.9 2.2 2.6 6.3 15.5
95%的红酒剩余糖分的含量集中在1.4~6.3
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "< 2.2e-16"
p-value<0.05, 剩余糖分 不符合正态分布
## Min 2.5% 25% 50% 75% 97.5% Max
## 0.012 0.048 0.070 0.079 0.090 0.205 0.611
95%的红酒含盐量集中在0.048~0.205
## isNormal method
## "FALSE" "Two-sample Kolmogorov-Smirnov test"
## alternative p.value
## "two-sided" "< 2.2e-16"
p-value<0.05, 含盐量 不符合正态分布
相关性大于0.4:
- quality & alcohol: 0.476
- alcohol & density: -0.496
- density & fixed.acidity: 0.668
- citric.acid & fixed.acidity: 0.672
- total.sulfur.dioxide & free.sulfur.dioxide : 0.668
- pH & fixed.acidity: -0.683
- pH & citric.acid: -0.542
酒精浓度越高对应的红酒质量大概率会更高。
- 红酒质量评分低于7时,挥发酸含量越低,红酒质量越高
- 红酒质量评分为7、8时,挥发酸含量影响不大
由图可知,酒精浓度越高,密度越低
由图可知,非挥发性酸含量越高,密度越大
由图可知,非挥发性酸含量越高,柠檬酸含量越高
由图可知,二氧化硫含量越高,硫元素离子含量越高
由图可知,非挥发性酸越高,pH越低
由图可知,柠檬酸越高,pH越低
- 质量最高的红酒, 酒精含量在9.5~14之间
- 不同质量的红酒, 酒精量和密度均成反比
- 质量最高的红酒,非挥发性酸含量在5~13之间
- 质量最高的红酒,密度均小于1
质量最高的红酒, 柠檬酸占据整个柠檬酸值范围,说明柠檬酸含量和红酒质量没有关系
- 质量最高的红酒(quality 8), 二氧化硫含量均低于100
- 质量其次的红酒(quality 7),二氧化硫含量有两个异常值,接近300, 其他在106以内
- 红酒质量和二氧化硫含量没有相关性
- 质量最高的红酒, pH值在2.8~3.8之间,在整个取值区间,基本均匀分布
- 质量最低的红酒, pH值在3.16~3.63之间,比较集中
- 红酒质量和pH值没有相关性
挥发性酸不高,酒精浓度不低的情况下,红酒质量比较好。
大部分评分集中在5和6,高分低分都比较少。
较高质量的红酒有相对较高的酒精浓度。
挥发性酸不高,酒精浓度不低的情况下,红酒质量比较好。
整个分析过程主要围绕红酒质量和与他相关度较高的几个变量进行分析,分析过程中也分析了一些其他的变量。
始终没有发现某一化学物质和红酒质量有强相关性。初步分析时由于挥发性酸和质量间的相关性为0.39<0.4,没有分析这个变量,后来尝试分析,得到更多有意义的结论。
分析过程,不必要有精确条件才开始分析,接近的条件,也可尝试分析。